尽管取得了成功,但深度学习模型与需要综合推理和功能组成的任务斗争。我们对此类任务中结构化状态空间模型(SSM)和变压器的局限性进行了理论和实证研究。我们证明,如果没有不切实际的状态尺寸,即使在链链的提示中,一层SSM无法有效地在大域上表现函数组成,它们也需要许多步骤,以使功能组成的复杂性不利地扩展。另外,有限精确的SSM的语言在普通语言类别中。我们的实验证实了这些理论发现。评估模型,包括各种功能组成设置,多位数乘法,动态编程和爱因斯坦的难题,即使使用高级提示技术,我们也会发现大量的性能下降。模型通常诉诸捷径,导致复合错误。这些发现突出了植根于其计算能力的当前深度学习体系结构内的基本障碍。我们强调了创新解决方案的需求,以超越这些联系并实现可靠的多步推理和组成任务解决,这对于迈向通用人工智能至关重要。
主要关键词